{
 "cells": [
  {
   "cell_type": "code",
   "execution_count": 1,
   "metadata": {
    "pycharm": {
     "is_executing": false
    }
   },
   "outputs": [],
   "source": [
    "## 加载所需要包\n",
    "import numpy as np\n",
    "import pandas as pd\n",
    "import jieba\n",
    "import time\n",
    "import csv"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 34,
   "metadata": {},
   "outputs": [],
   "source": [
    "# 创建停用词列表\n",
    "def stopwordslist():\n",
    "    stopwords = [line.strip() for line in open('../cnews/stop.txt',encoding='UTF-8').readlines()]\n",
    "    return stopwords"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 35,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "(20000, 1)"
      ]
     },
     "execution_count": 35,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "## 读取停用词\n",
    "# stopword = pd.read_csv(\"./cnews/stop.txt\",\n",
    "#                        quoting=csv.QUOTE_NONE,\n",
    "#                        header=None,\n",
    "#                        names = [\"Stopwords\"])\n",
    "stopword = stopwordslist()\n",
    "## 读取数据集\n",
    "Red_df = pd.read_csv(\"../data/test_data.csv\")\n",
    "## 增大样本量\n",
    "Artical = []\n",
    "for ii in range(20000):\n",
    "    Artical.append(Red_df.content[ii])\n",
    "Red = pd.DataFrame(data = {\"Artical\" : Artical})\n",
    "Red.shape"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 36,
   "metadata": {},
   "outputs": [
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "d:\\python\\lib\\site-packages\\ipykernel_launcher.py:16: DeprecationWarning: time.clock has been deprecated in Python 3.3 and will be removed from Python 3.8: use time.perf_counter or time.process_time instead\n",
      "  app.launch_new_instance()\n"
     ]
    },
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "33.38831920000007\n"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "d:\\python\\lib\\site-packages\\ipykernel_launcher.py:19: DeprecationWarning: time.clock has been deprecated in Python 3.3 and will be removed from Python 3.8: use time.perf_counter or time.process_time instead\n"
     ]
    }
   ],
   "source": [
    "## 只使用apply：\n",
    "\n",
    "def cutword2(string):\n",
    "    cutwords = list(jieba.cut(string, cut_all=True))\n",
    "    ## 去除长度大于1的词\n",
    "    cutwordii = []\n",
    "    for cut in cutwords:\n",
    "        if len(cut) > 1:\n",
    "            cutwordii.append(cut)\n",
    "    cutwords = pd.Series(cutwordii)\n",
    "    ## 去停用词\n",
    "    cutwords = cutwords[~cutwords.isin(stopword)]\n",
    "    return(cutwords.values)\n",
    "\n",
    "## 使用apply方法分词\n",
    "start = time.clock()\n",
    "Red[\"cutword\"] = \"cutword\"\n",
    "Red[\"cutword\"] = Red.Artical.apply(func=cutword2)\n",
    "end = time.clock()\n",
    "timeapply = end-start\n",
    "print(timeapply)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 37,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style scoped>\n",
       "    .dataframe tbody tr th:only-of-type {\n",
       "        vertical-align: middle;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: right;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>Artical</th>\n",
       "      <th>cutword</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>0</th>\n",
       "      <td>银华旗下两基金开通转换 银华基金日前发布公告，自3月12日起开通银华领先策略、银华增强收益与...</td>\n",
       "      <td>[华旗, 旗下, 两基, 基金, 开通, 转换, 基金, 金日, 日前, 发布, 发布公告,...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>1</th>\n",
       "      <td>深圳楼市现拐点价涨量跌 购房者对房价敏感 据中央电视台“朝闻天下”栏目消息，深圳楼市在今年上...</td>\n",
       "      <td>[深圳, 楼市, 拐点, 购房, 购房者, 房价, 敏感, 中央, 中央电视台, 电视, 电...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>2</th>\n",
       "      <td>今年以来封基净值平均增长12.46% 本报讯 与开放式基金一样，今年以来封基的表现也很抢眼。...</td>\n",
       "      <td>[今年以来, 净值, 平均, 增长, 12, 46, 本报, 本报讯, 开放, 开放式, 基...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>3</th>\n",
       "      <td>现场：斯科拉扭伤离场检查 洛瑞迟到三分杯水车薪新浪体育讯北京时间2月28日消息，火箭背靠背客...</td>\n",
       "      <td>[现场, 斯科拉, 科拉, 扭伤, 离场, 检查, 迟到, 三分, 杯水, 杯水车薪, 水车...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>4</th>\n",
       "      <td>120G硬盘高清DV 索尼XR500E单机8650元    作者：李金昊    [北京行情]...</td>\n",
       "      <td>[120G, 硬盘, 高清, DV, 索尼, XR500E, 单机, 8650, 作者, 北...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>...</th>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>19995</th>\n",
       "      <td>张世礼：社会要尊重设计师劳动 不搞恶性竞争新浪家居杨轶讯 2010年1月22日，新浪乐居•里...</td>\n",
       "      <td>[社会, 尊重, 重设, 设计, 设计师, 劳动, 恶性, 恶性竞争, 竞争, 新浪, 家居...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>19996</th>\n",
       "      <td>搞定Icon的万能尖货Gwen Stefani “娘”了 没救了Gwen Stefani做了...</td>\n",
       "      <td>[搞定, Icon, 万能, Gwen, Stefani, 没救, Gwen, Stefan...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>19997</th>\n",
       "      <td>专家称开发商炮制故事助推去年房价本报北京1月6日电(记者李松涛)在某论坛上，国家信息中心专家...</td>\n",
       "      <td>[专家, 开发, 开发商, 炮制, 故事, 助推, 去年, 房价, 本报, 北京, 日电, ...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>19998</th>\n",
       "      <td>吴尊韩庚培养默契 被高晓松关在房里对视聊天成都商报(微博)讯(记者 张世豪 实习生 李潇 摄...</td>\n",
       "      <td>[培养, 默契, 高晓松, 关在, 房里, 对视, 聊天, 天成, 成都, 商报, 记者, ...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>19999</th>\n",
       "      <td>根据市场节奏变化选择基金组合在基金组合投资方面，建议投资者继续保持谨慎为主，适度灵活的投资思...</td>\n",
       "      <td>[市场, 节奏, 变化, 选择, 基金, 组合, 合在, 基金, 组合, 投资, 投资方, ...</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "<p>20000 rows × 2 columns</p>\n",
       "</div>"
      ],
      "text/plain": [
       "                                                 Artical  \\\n",
       "0      银华旗下两基金开通转换 银华基金日前发布公告，自3月12日起开通银华领先策略、银华增强收益与...   \n",
       "1      深圳楼市现拐点价涨量跌 购房者对房价敏感 据中央电视台“朝闻天下”栏目消息，深圳楼市在今年上...   \n",
       "2      今年以来封基净值平均增长12.46% 本报讯 与开放式基金一样，今年以来封基的表现也很抢眼。...   \n",
       "3      现场：斯科拉扭伤离场检查 洛瑞迟到三分杯水车薪新浪体育讯北京时间2月28日消息，火箭背靠背客...   \n",
       "4      120G硬盘高清DV 索尼XR500E单机8650元    作者：李金昊    [北京行情]...   \n",
       "...                                                  ...   \n",
       "19995  张世礼：社会要尊重设计师劳动 不搞恶性竞争新浪家居杨轶讯 2010年1月22日，新浪乐居•里...   \n",
       "19996  搞定Icon的万能尖货Gwen Stefani “娘”了 没救了Gwen Stefani做了...   \n",
       "19997  专家称开发商炮制故事助推去年房价本报北京1月6日电(记者李松涛)在某论坛上，国家信息中心专家...   \n",
       "19998  吴尊韩庚培养默契 被高晓松关在房里对视聊天成都商报(微博)讯(记者 张世豪 实习生 李潇 摄...   \n",
       "19999  根据市场节奏变化选择基金组合在基金组合投资方面，建议投资者继续保持谨慎为主，适度灵活的投资思...   \n",
       "\n",
       "                                                 cutword  \n",
       "0      [华旗, 旗下, 两基, 基金, 开通, 转换, 基金, 金日, 日前, 发布, 发布公告,...  \n",
       "1      [深圳, 楼市, 拐点, 购房, 购房者, 房价, 敏感, 中央, 中央电视台, 电视, 电...  \n",
       "2      [今年以来, 净值, 平均, 增长, 12, 46, 本报, 本报讯, 开放, 开放式, 基...  \n",
       "3      [现场, 斯科拉, 科拉, 扭伤, 离场, 检查, 迟到, 三分, 杯水, 杯水车薪, 水车...  \n",
       "4      [120G, 硬盘, 高清, DV, 索尼, XR500E, 单机, 8650, 作者, 北...  \n",
       "...                                                  ...  \n",
       "19995  [社会, 尊重, 重设, 设计, 设计师, 劳动, 恶性, 恶性竞争, 竞争, 新浪, 家居...  \n",
       "19996  [搞定, Icon, 万能, Gwen, Stefani, 没救, Gwen, Stefan...  \n",
       "19997  [专家, 开发, 开发商, 炮制, 故事, 助推, 去年, 房价, 本报, 北京, 日电, ...  \n",
       "19998  [培养, 默契, 高晓松, 关在, 房里, 对视, 聊天, 天成, 成都, 商报, 记者, ...  \n",
       "19999  [市场, 节奏, 变化, 选择, 基金, 组合, 合在, 基金, 组合, 投资, 投资方, ...  \n",
       "\n",
       "[20000 rows x 2 columns]"
      ]
     },
     "execution_count": 37,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "Red"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 38,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style scoped>\n",
       "    .dataframe tbody tr th:only-of-type {\n",
       "        vertical-align: middle;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: right;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>id</th>\n",
       "      <th>content</th>\n",
       "      <th>cutword</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>0</th>\n",
       "      <td>0</td>\n",
       "      <td>银华旗下两基金开通转换 银华基金日前发布公告，自3月12日起开通银华领先策略、银华增强收益与...</td>\n",
       "      <td>华旗 旗下 两基 基金 开通 转换 基金 金日 日前 发布 发布公告 公告 12 起开 开通...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>1</th>\n",
       "      <td>1</td>\n",
       "      <td>深圳楼市现拐点价涨量跌 购房者对房价敏感 据中央电视台“朝闻天下”栏目消息，深圳楼市在今年上...</td>\n",
       "      <td>深圳 楼市 拐点 购房 购房者 房价 敏感 中央 中央电视台 电视 电视台 朝闻 天下 栏目...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>2</th>\n",
       "      <td>2</td>\n",
       "      <td>今年以来封基净值平均增长12.46% 本报讯 与开放式基金一样，今年以来封基的表现也很抢眼。...</td>\n",
       "      <td>今年以来 净值 平均 增长 12 46 本报 本报讯 开放 开放式 基金 今年以来 表现 抢...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>3</th>\n",
       "      <td>3</td>\n",
       "      <td>现场：斯科拉扭伤离场检查 洛瑞迟到三分杯水车薪新浪体育讯北京时间2月28日消息，火箭背靠背客...</td>\n",
       "      <td>现场 斯科拉 科拉 扭伤 离场 检查 迟到 三分 杯水 杯水车薪 水车 新浪 体育 体育讯 ...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>4</th>\n",
       "      <td>4</td>\n",
       "      <td>120G硬盘高清DV 索尼XR500E单机8650元    作者：李金昊    [北京行情]...</td>\n",
       "      <td>120G 硬盘 高清 DV 索尼 XR500E 单机 8650 作者 北京 行情 索尼 新一...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>...</th>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>19995</th>\n",
       "      <td>19995</td>\n",
       "      <td>张世礼：社会要尊重设计师劳动 不搞恶性竞争新浪家居杨轶讯 2010年1月22日，新浪乐居•里...</td>\n",
       "      <td>社会 尊重 重设 设计 设计师 劳动 恶性 恶性竞争 竞争 新浪 家居 2010 22 新浪...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>19996</th>\n",
       "      <td>19996</td>\n",
       "      <td>搞定Icon的万能尖货Gwen Stefani “娘”了 没救了Gwen Stefani做了...</td>\n",
       "      <td>搞定 Icon 万能 Gwen Stefani 没救 Gwen Stefani 真的 彻头彻...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>19997</th>\n",
       "      <td>19997</td>\n",
       "      <td>专家称开发商炮制故事助推去年房价本报北京1月6日电(记者李松涛)在某论坛上，国家信息中心专家...</td>\n",
       "      <td>专家 开发 开发商 炮制 故事 助推 去年 房价 本报 北京 日电 记者 松涛 论坛 国家 ...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>19998</th>\n",
       "      <td>19998</td>\n",
       "      <td>吴尊韩庚培养默契 被高晓松关在房里对视聊天成都商报(微博)讯(记者 张世豪 实习生 李潇 摄...</td>\n",
       "      <td>培养 默契 高晓松 关在 房里 对视 聊天 天成 成都 商报 记者 实习 实习生 摄影 摄影...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>19999</th>\n",
       "      <td>19999</td>\n",
       "      <td>根据市场节奏变化选择基金组合在基金组合投资方面，建议投资者继续保持谨慎为主，适度灵活的投资思...</td>\n",
       "      <td>市场 节奏 变化 选择 基金 组合 合在 基金 组合 投资 投资方 资方 建议 投资 投资者...</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "<p>20000 rows × 3 columns</p>\n",
       "</div>"
      ],
      "text/plain": [
       "          id                                            content  \\\n",
       "0          0  银华旗下两基金开通转换 银华基金日前发布公告，自3月12日起开通银华领先策略、银华增强收益与...   \n",
       "1          1  深圳楼市现拐点价涨量跌 购房者对房价敏感 据中央电视台“朝闻天下”栏目消息，深圳楼市在今年上...   \n",
       "2          2  今年以来封基净值平均增长12.46% 本报讯 与开放式基金一样，今年以来封基的表现也很抢眼。...   \n",
       "3          3  现场：斯科拉扭伤离场检查 洛瑞迟到三分杯水车薪新浪体育讯北京时间2月28日消息，火箭背靠背客...   \n",
       "4          4  120G硬盘高清DV 索尼XR500E单机8650元    作者：李金昊    [北京行情]...   \n",
       "...      ...                                                ...   \n",
       "19995  19995  张世礼：社会要尊重设计师劳动 不搞恶性竞争新浪家居杨轶讯 2010年1月22日，新浪乐居•里...   \n",
       "19996  19996  搞定Icon的万能尖货Gwen Stefani “娘”了 没救了Gwen Stefani做了...   \n",
       "19997  19997  专家称开发商炮制故事助推去年房价本报北京1月6日电(记者李松涛)在某论坛上，国家信息中心专家...   \n",
       "19998  19998  吴尊韩庚培养默契 被高晓松关在房里对视聊天成都商报(微博)讯(记者 张世豪 实习生 李潇 摄...   \n",
       "19999  19999  根据市场节奏变化选择基金组合在基金组合投资方面，建议投资者继续保持谨慎为主，适度灵活的投资思...   \n",
       "\n",
       "                                                 cutword  \n",
       "0      华旗 旗下 两基 基金 开通 转换 基金 金日 日前 发布 发布公告 公告 12 起开 开通...  \n",
       "1      深圳 楼市 拐点 购房 购房者 房价 敏感 中央 中央电视台 电视 电视台 朝闻 天下 栏目...  \n",
       "2      今年以来 净值 平均 增长 12 46 本报 本报讯 开放 开放式 基金 今年以来 表现 抢...  \n",
       "3      现场 斯科拉 科拉 扭伤 离场 检查 迟到 三分 杯水 杯水车薪 水车 新浪 体育 体育讯 ...  \n",
       "4      120G 硬盘 高清 DV 索尼 XR500E 单机 8650 作者 北京 行情 索尼 新一...  \n",
       "...                                                  ...  \n",
       "19995  社会 尊重 重设 设计 设计师 劳动 恶性 恶性竞争 竞争 新浪 家居 2010 22 新浪...  \n",
       "19996  搞定 Icon 万能 Gwen Stefani 没救 Gwen Stefani 真的 彻头彻...  \n",
       "19997  专家 开发 开发商 炮制 故事 助推 去年 房价 本报 北京 日电 记者 松涛 论坛 国家 ...  \n",
       "19998  培养 默契 高晓松 关在 房里 对视 聊天 天成 成都 商报 记者 实习 实习生 摄影 摄影...  \n",
       "19999  市场 节奏 变化 选择 基金 组合 合在 基金 组合 投资 投资方 资方 建议 投资 投资者...  \n",
       "\n",
       "[20000 rows x 3 columns]"
      ]
     },
     "execution_count": 38,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "Red_df['cutword'] = Red.cutword.apply(func=lambda x:' '.join(x))\n",
    "Red_df"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 39,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style scoped>\n",
       "    .dataframe tbody tr th:only-of-type {\n",
       "        vertical-align: middle;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: right;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>id</th>\n",
       "      <th>content</th>\n",
       "      <th>cutword</th>\n",
       "      <th>cutwordnum</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>0</th>\n",
       "      <td>0</td>\n",
       "      <td>银华旗下两基金开通转换 银华基金日前发布公告，自3月12日起开通银华领先策略、银华增强收益与...</td>\n",
       "      <td>华旗 旗下 两基 基金 开通 转换 基金 金日 日前 发布 发布公告 公告 12 起开 开通...</td>\n",
       "      <td>181</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>1</th>\n",
       "      <td>1</td>\n",
       "      <td>深圳楼市现拐点价涨量跌 购房者对房价敏感 据中央电视台“朝闻天下”栏目消息，深圳楼市在今年上...</td>\n",
       "      <td>深圳 楼市 拐点 购房 购房者 房价 敏感 中央 中央电视台 电视 电视台 朝闻 天下 栏目...</td>\n",
       "      <td>160</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>2</th>\n",
       "      <td>2</td>\n",
       "      <td>今年以来封基净值平均增长12.46% 本报讯 与开放式基金一样，今年以来封基的表现也很抢眼。...</td>\n",
       "      <td>今年以来 净值 平均 增长 12 46 本报 本报讯 开放 开放式 基金 今年以来 表现 抢...</td>\n",
       "      <td>104</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>3</th>\n",
       "      <td>3</td>\n",
       "      <td>现场：斯科拉扭伤离场检查 洛瑞迟到三分杯水车薪新浪体育讯北京时间2月28日消息，火箭背靠背客...</td>\n",
       "      <td>现场 斯科拉 科拉 扭伤 离场 检查 迟到 三分 杯水 杯水车薪 水车 新浪 体育 体育讯 ...</td>\n",
       "      <td>244</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>4</th>\n",
       "      <td>4</td>\n",
       "      <td>120G硬盘高清DV 索尼XR500E单机8650元    作者：李金昊    [北京行情]...</td>\n",
       "      <td>120G 硬盘 高清 DV 索尼 XR500E 单机 8650 作者 北京 行情 索尼 新一...</td>\n",
       "      <td>185</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>...</th>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "      <td>...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>19995</th>\n",
       "      <td>19995</td>\n",
       "      <td>张世礼：社会要尊重设计师劳动 不搞恶性竞争新浪家居杨轶讯 2010年1月22日，新浪乐居•里...</td>\n",
       "      <td>社会 尊重 重设 设计 设计师 劳动 恶性 恶性竞争 竞争 新浪 家居 2010 22 新浪...</td>\n",
       "      <td>909</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>19996</th>\n",
       "      <td>19996</td>\n",
       "      <td>搞定Icon的万能尖货Gwen Stefani “娘”了 没救了Gwen Stefani做了...</td>\n",
       "      <td>搞定 Icon 万能 Gwen Stefani 没救 Gwen Stefani 真的 彻头彻...</td>\n",
       "      <td>313</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>19997</th>\n",
       "      <td>19997</td>\n",
       "      <td>专家称开发商炮制故事助推去年房价本报北京1月6日电(记者李松涛)在某论坛上，国家信息中心专家...</td>\n",
       "      <td>专家 开发 开发商 炮制 故事 助推 去年 房价 本报 北京 日电 记者 松涛 论坛 国家 ...</td>\n",
       "      <td>198</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>19998</th>\n",
       "      <td>19998</td>\n",
       "      <td>吴尊韩庚培养默契 被高晓松关在房里对视聊天成都商报(微博)讯(记者 张世豪 实习生 李潇 摄...</td>\n",
       "      <td>培养 默契 高晓松 关在 房里 对视 聊天 天成 成都 商报 记者 实习 实习生 摄影 摄影...</td>\n",
       "      <td>291</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>19999</th>\n",
       "      <td>19999</td>\n",
       "      <td>根据市场节奏变化选择基金组合在基金组合投资方面，建议投资者继续保持谨慎为主，适度灵活的投资思...</td>\n",
       "      <td>市场 节奏 变化 选择 基金 组合 合在 基金 组合 投资 投资方 资方 建议 投资 投资者...</td>\n",
       "      <td>82</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "<p>20000 rows × 4 columns</p>\n",
       "</div>"
      ],
      "text/plain": [
       "          id                                            content  \\\n",
       "0          0  银华旗下两基金开通转换 银华基金日前发布公告，自3月12日起开通银华领先策略、银华增强收益与...   \n",
       "1          1  深圳楼市现拐点价涨量跌 购房者对房价敏感 据中央电视台“朝闻天下”栏目消息，深圳楼市在今年上...   \n",
       "2          2  今年以来封基净值平均增长12.46% 本报讯 与开放式基金一样，今年以来封基的表现也很抢眼。...   \n",
       "3          3  现场：斯科拉扭伤离场检查 洛瑞迟到三分杯水车薪新浪体育讯北京时间2月28日消息，火箭背靠背客...   \n",
       "4          4  120G硬盘高清DV 索尼XR500E单机8650元    作者：李金昊    [北京行情]...   \n",
       "...      ...                                                ...   \n",
       "19995  19995  张世礼：社会要尊重设计师劳动 不搞恶性竞争新浪家居杨轶讯 2010年1月22日，新浪乐居•里...   \n",
       "19996  19996  搞定Icon的万能尖货Gwen Stefani “娘”了 没救了Gwen Stefani做了...   \n",
       "19997  19997  专家称开发商炮制故事助推去年房价本报北京1月6日电(记者李松涛)在某论坛上，国家信息中心专家...   \n",
       "19998  19998  吴尊韩庚培养默契 被高晓松关在房里对视聊天成都商报(微博)讯(记者 张世豪 实习生 李潇 摄...   \n",
       "19999  19999  根据市场节奏变化选择基金组合在基金组合投资方面，建议投资者继续保持谨慎为主，适度灵活的投资思...   \n",
       "\n",
       "                                                 cutword  cutwordnum  \n",
       "0      华旗 旗下 两基 基金 开通 转换 基金 金日 日前 发布 发布公告 公告 12 起开 开通...         181  \n",
       "1      深圳 楼市 拐点 购房 购房者 房价 敏感 中央 中央电视台 电视 电视台 朝闻 天下 栏目...         160  \n",
       "2      今年以来 净值 平均 增长 12 46 本报 本报讯 开放 开放式 基金 今年以来 表现 抢...         104  \n",
       "3      现场 斯科拉 科拉 扭伤 离场 检查 迟到 三分 杯水 杯水车薪 水车 新浪 体育 体育讯 ...         244  \n",
       "4      120G 硬盘 高清 DV 索尼 XR500E 单机 8650 作者 北京 行情 索尼 新一...         185  \n",
       "...                                                  ...         ...  \n",
       "19995  社会 尊重 重设 设计 设计师 劳动 恶性 恶性竞争 竞争 新浪 家居 2010 22 新浪...         909  \n",
       "19996  搞定 Icon 万能 Gwen Stefani 没救 Gwen Stefani 真的 彻头彻...         313  \n",
       "19997  专家 开发 开发商 炮制 故事 助推 去年 房价 本报 北京 日电 记者 松涛 论坛 国家 ...         198  \n",
       "19998  培养 默契 高晓松 关在 房里 对视 聊天 天成 成都 商报 记者 实习 实习生 摄影 摄影...         291  \n",
       "19999  市场 节奏 变化 选择 基金 组合 合在 基金 组合 投资 投资方 资方 建议 投资 投资者...          82  \n",
       "\n",
       "[20000 rows x 4 columns]"
      ]
     },
     "execution_count": 39,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "Red_df[\"cutwordnum\"] = Red.cutword.apply(func=lambda x:len(x))\n",
    "Red_df"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 40,
   "metadata": {},
   "outputs": [],
   "source": [
    "Red_df.to_csv(\"../cnews/test_data2.csv\", index=False, sep=',')"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 41,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "'楼市'"
      ]
     },
     "execution_count": 41,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "Red['cutword'][1][1]"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 42,
   "metadata": {
    "scrolled": true
   },
   "outputs": [
    {
     "data": {
      "text/plain": [
       "array(['国内', '内家', '家居', '卖场', '70', '经销', '经销商', '经营', '业内', '观点', '对接',\n",
       "       '工厂', '噱头', '东方', '方家', '家园', '家居', '广场', '副总', '副总经理', '总经理',\n",
       "       '经理', '营销', '手段', '消费', '消费者', '享受', '优惠', '工厂', '采购', '模式', '常态',\n",
       "       '国内', '内家', '家居', '卖场', '70', '经销', '经销商', '经营', '国外', '生产', '销售',\n",
       "       '分开', '流通', '通行', '行业', '经济', '消费', '消费者', '价值', '工厂', '采购', '活动',\n",
       "       '小小', '小小的', '销量', '损失', '经销', '经销商', '利益', '肯定', '工厂', '活动',\n",
       "       '实际上', '品牌', '宣传', '能成', '家居', '消费', '固定', '模式', '百货', '行业', '家电',\n",
       "       '家电行业', '行业', '多服', '服装', '服装品牌', '品牌', '家电', '品牌', '燕莎', '赛特',\n",
       "       '国美', '苏宁', '流通', '通行', '行业', '品牌', '是非', '对接', '工厂', '活动', '噱头',\n",
       "       '营销', '创新', '常态', '光斗', '著名', '著名品牌', '名品', '品牌', '营销', '专家', '包机',\n",
       "       '机工', '工厂', '采购', '活动', '营销', '创新', '一个多', '局面', '从前', '消费', '消费者',\n",
       "       '购买', '产品', '疑惑', '既有', '品牌', '体验', '拥有', '购物', '物体', '体验', '优势',\n",
       "       '消费', '消费者', '占到', '便宜', '厂家', '销量', '保障', '卖场', '品牌', '宣传', '口碑',\n",
       "       '角度', '活动', '动能', '消费', '消费者', '好感', '增强', '品牌', '好感', '好感度', '此类',\n",
       "       '营销', '战术', '不错', '常态', '经济', '经济学', '济学', '渠道', '作用', '是非', '肯定',\n",
       "       '占据', '主流', '采购', '现场', '讨价', '讨价还价', '还价', '采过', '过程', '折扣',\n",
       "       '折扣价', '价格', '商家', '早已', '已定', '定好', '参加', '团购', '消费', '消费者', '折扣',\n",
       "       '齐心', '齐心协力', '协力', '还价', '收获', '床垫', '加送', '记忆', '朗斯', '淋浴',\n",
       "       '淋浴房', '折扣', '降低', 'VIP', 'VIP', '团购', '队伍', '一处', '享受', 'VIP',\n",
       "       '队伍', '购买', '瓷砖', '两位', '明星', '星团', '团员', '浮出', '出水', '水面', '一下子',\n",
       "       '下子', '签下', '百万', '级别', '工程', '采购', '合同', '一处', '两位', '团员', 'VIP',\n",
       "       'VIP', '特别', '照顾', '超长', '优惠', '优惠期', '团购', '参与', '活动', '品牌', '折扣',\n",
       "       '日期', '期限', '限定', '团购', '当天', '回京', '一周', '一位', '阿姨', '希望', '明年',\n",
       "       '房子', '享受', '价格', '销售', '谈判', '几个', '回合', '这位', '阿姨', '超长', '优惠',\n",
       "       '优惠期', '期限', '商家', '说法', '计划', '推出', '出国', '国外', '红星', '京沪', '西南',\n",
       "       '西南区', '南区', '副总', '副总经理', '总经理', '经理', '持续', '举办', '此类', '工厂',\n",
       "       '采购', '活动', '城市', '跟进', '消费', '消费者', '需求', '工厂', '采购', '高端', '客户',\n",
       "       '推出', '出国', '国外', '采购', '活动', '意大利', '大利', '买家', '家具', '活动', '计划',\n",
       "       '于此', '此类', '工厂', '采购', '活动', '不错', '营销', '手段', '宣传', '红星', '参与',\n",
       "       '品牌', '知名', '知名度', '经销', '经销商', '保证', '利益', '包机', '机工', '工厂', '采购',\n",
       "       '活动', '商家', '进销', '销售', '消费', '消费者', '买到', '实惠', '家居', '产品', '红星',\n",
       "       '付出', '包机', '旅游', '旅游费', '费用', '值得', '消费', '消费者', '享受', '更好', '服务',\n",
       "       '未来', '工厂', '采购', '活动', '中选', '选择', '更多', '中高', '中高档', '高档', '品牌',\n",
       "       '家居', '消费', '模式', '新亮点', '亮点', '参与', '工厂', '瓷砖', '北京', '事业', '事业部',\n",
       "       '经理', '活动', '北京', '家居', '行业', '业内', '第一', '第一次', '销售', '目的', '精准',\n",
       "       '红星', '全国', '全国性', '企业', '操作', '活动', '水平', '信心', '选定', '品牌', '档次',\n",
       "       '认同', '品牌', '目标', '标定', '定位', '匹配', '营销', '活动', '品牌', '推动', '动作',\n",
       "       '作用', '红星', '类似', '活动', '参加'], dtype=object)"
      ]
     },
     "execution_count": 42,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "Red['cutword'][7600]"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": []
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": []
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": []
  }
 ],
 "metadata": {
  "kernelspec": {
   "display_name": "Python 3",
   "language": "python",
   "name": "python3"
  },
  "language_info": {
   "codemirror_mode": {
    "name": "ipython",
    "version": 3
   },
   "file_extension": ".py",
   "mimetype": "text/x-python",
   "name": "python",
   "nbconvert_exporter": "python",
   "pygments_lexer": "ipython3",
   "version": "3.7.9"
  }
 },
 "nbformat": 4,
 "nbformat_minor": 4
}